#AI 語音 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#AI 語音

AI語音輸入法，人類進入「不打字」時代

破天荒，這是一篇用“語音”打出來的文章。一周前，我下載了一款叫Typeless的語音輸入法，當時我沒有意識到它會改變什麼。首先交代一下大背景：從2025年下半年起，AI語音輸入法成為驟然颳起的新風口。以語音輸入為核心賣點的豆包輸入法，登陸各大應用程式商店。大模型六小虎之一的智譜，推出智譜AI輸入法。其他的一些大廠輸入法，也都或多或少在加碼AI語音輸入。1月27日，搜狗輸入法宣佈重磅升級其語音輸入能力，稱其識別率達到98%，日均語音使用次數近20億次，穩居行業第一。風景不止這邊獨好，太平洋對岸的Wispr Flow目前融資額達8100萬美元，估值7個億。由華人開發的後起之秀Typeless在Product Hunt上線後連日高居排行榜前列，先後推出覆蓋主流平台的版本。此外，多個初創企業乃至個人開發者也推出了類似產品，閃電說、LazyTyper、Spokenly、秒言等等，不一而足。我原本以為，這又是一次和往常一樣的嘗鮮。畢竟近幾年來出現的AI新品如過江之鯽，其中大多數很難在我的螢幕上停留超過半天。所以，一開始我並沒有抱很大期待。結果卻是，這是自ChatGPT以來，最讓我眼前一亮的AI產品。我用了不到一周的時間，就改變了已經形成20多年的習慣：主要的輸入方式從打字變成了語音。甚至連這篇文章的初稿，也是用語音輸入完成的。我專門申請了另一個Typeless帳號，記錄完成這篇文稿的資料：用時53分鐘，輸入5500字，每分鐘155字，節省2.5小時。更快更準更多AI語音輸入的降維打擊對我來說，放棄打字轉向語音堪比“違背祖宗的決定”。因為我自詡是個打字愛好者。為了更好的打字型驗，專門學習擊鍵次數更少的自然碼雙拼輸入方案，配置了高度可定製化的輸入法Rime，買過好幾把不同軸體的機械鍵盤。你或許看不懂這句話裡的部分詞彙，沒關係，你只需要知道，這是鍵盤和輸入法愛好者群體中常見的專有名詞。即使如此，我的打字速度，最高也就每分鐘八九十個字，普通人裡已經算快了，大多數人的打字速度，也就每分鐘四五十字。我曾經潛伏在某個輸入法愛好者群組，裡面匯聚了眾多大神級人物，他們每天討論的話題，是如何自制各種類型的輸入方案，提高打字效率。其中有位在某二線城市當大學老師的成員，跟我有著類似的經歷，他從2025年末開始，正式“皈依”語音輸入。“我之前電腦用五筆，手機用小鶴雙拼，巔峰時五筆打字每分鐘130多字。”他如是說，“但跟現在的AI語音輸入比起來，打字還是差太遠了，我語音每分鐘甚至可以達到250字。”這個速度，即使是頂尖的打字專業選手，也望塵莫及。2013年全國漢字輸入大賽的冠軍，平均每分鐘也才打175個字。即使是口條並不利索的我，語音輸入也能穩定在每分鐘150字左右，稍微努力下，就能超越打字冠軍。速度是快，精準率呢？答案是，很準。即使是在前ChatGPT時代，也是如此。2018年史丹佛大學、華盛頓大學和百度的一項聯合論文顯示，語音輸入不論是速度還是精準率，都顯著優於鍵盤。速度上，英語母語者語音輸入每分鐘153字，鍵盤輸入僅52字；中文拼音使用者每分鐘鍵盤輸入43字，而語音達123字。不論中英文，語音輸入都比打字快了約3倍。在輸入過程的錯誤率上，語音的表現也更優。中文語音輸入的糾錯率為6.67%，而鍵盤輸入高達17.73%。在經歷了幾年大模型狂飆突進之後，AI語音的識別速度和精準率則更上一層樓。Typeless、智譜AI輸入法、閃電說都稱自己的速度比打字快4倍，一款叫LazyTyper的語音輸入法，更是聲稱比打字快7倍。精準率上，搜狗說自己精準率98%，智譜也在官網標註了97.8%。從網上的評測和個人體驗來看，這些廣告語並不算誇張。與大廠輸入法在鍵盤上做加法不同，初創企業和個人開發者的語音輸入產品邁的步子更大，或許必須更激進的姿態才能在紅海裡分一杯羹，他們直接取消了打字鍵盤，只保留了少數常用按鈕，語音鍵被提拔到了C位。傳統的語音輸入只是轉錄聽寫，但大模型加持下，語音輸入是一種更高維的產品，是“語音意圖輸入法”。它不只可以將語音一字不漏地轉錄，也能識別輸入者的意圖，刪除多餘的語氣詞，修改語法錯誤，捋順不連貫的地方，同時根據輸入環境調整語氣、翻譯潤色等等，都不在話下。那怕輸出錯了，也支援用語音修改。比如用Typeless輸出一句話：“我想去延津縣”，但其實你想輸入的是“鹽”津縣，你也只需要對著這句話說“把yán改成油鹽醬醋的鹽”即可。當然，你肯定會反駁，語音輸入就算又快又準，但不是什麼場景都適用。嘈雜的人群中能聽清嗎？在辦公室對著手機說話不尷尬嗎？曾經我也有類似的想法，但使用之後我打消了顧慮，即使是輕輕低語，也能基本精準無誤的輸入。我在辦公室偷偷用了5天語音輸入後，問我的左右鄰桌同事能不能聽到我輸入語音的聲音，他們的反應是：“你啥時候出聲了？”搜狗在宣傳稿裡稱，自家輸入法20分貝以下的語音依然有97%的正確率。20分貝，就相當於樹葉的沙沙聲，或者五米開外的低語。目前最大的不良體驗，反而來自意想不到的地方。比如戴上耳機後，語音輸入的正確率反而不如不戴耳機。比如單獨字詞的輸入，遠不如句子段落。越長的語音，精準率越高，顯然得益於大語音模型的理解和推理能力，越長的語音，其意義就越明確，可供參考的情境也就更多。而漢語中充滿了同音字詞，你只說一個沒有上下文的“yì”，誰知道你說的是藝、抑、易、邑、屹、億、役、臆、逸、肄、疫、亦、裔、意、毅、憶、義、益、溢、詣、議、誼、譯、異、翼、翌、繹、刈、劓、仡、佚、佾、埸、懿、薏、弈、奕、挹、弋、囈、嗌、嶧、懌、悒、驛、縊、殪、軼、熠、鎰、鐿、瘞、癔、翊、蜴、羿還是翳呢？不用數了，這裡有57個yì，漢語中同音字最多的讀音。但我相信，這些瑕疵日後都能得到一步步解決。就像不久前，AI圖片還無法攻克中文亂碼的問題，現在你已經可以用Nano Banana穩定地輸出帶中文的圖片了。而瑕疵掩蓋不住AI語音輸入更大的野心。我正在用的Typeless，光從名字上就可以看出，它遠遠不止想做一個輸入法，而是讓全世界進入無需打字（Typeless）的時代。這樣的野心並不出格。輸入法一直是網際網路最被忽視、卻又是最基礎的入口。大模型的摧枯拉朽，或許會給這片早已被瓜分完畢的戰場，帶來新的血腥。突破輸入框再造超級入口在中國，網際網路從PC時代的開放，走向了移動時代的封閉。App之間築起一道道高牆，形成一個個孤島。時至今日，你甚至連在微信裡點選觀看抖音的視訊都沒法做到，更不要說打通他們之間的生態。在一個個App孤島裡，只有為數不多的應用，能夠雨露均霑地穿梭在它們之間，輸入法就是其一。所有你需要表達訴求的地方，都需要它。以前，這個入口的重要性並沒有顯現出來，傳統輸入法能做的東西並不多，無非是收集使用者的巨量資料，插入一些廣告。但這個入口，抹上了AI的濃妝後，別有一番風韻。大模型讓輸入法這一古老的產品，重新變得性感，隱約得以瞥見看到“超級入口”的綽約風姿：如果這個入口的產品，不僅僅只是打字，而是能實現跨App甚至更高級的呼叫呢？其實目前的大模型，已具備了這樣的能力。前一陣子豆包手機就因為能夠實現系統級的呼叫而成為關注焦點，但遭到了眾多App的抵制。可以這麼想，未來AI語音輸入不再只是傳統打字輸入法的補充，而是一次突破輸入框的升維。不妨大膽一點，如果這個入口乾脆就是系統級的AI助手呢？在更廣闊的未來，語音輸入不只是移動裝置，而是貫穿虛擬和現實世界的交流介面？或許，未來的輸入壓根不需要專門的輸入法，也不需要這佔據了小半個螢幕的一畝三分地，它只是系統級AI助手順帶手就能完成的小事一樁。具像一點，AI語音輸入的未來應該是理想中的Siri。蘋果也可能意識到了這一點。據報導，蘋果將在2026年6月推出全新版AI助手，具備對話式互動能力，並有望整合到郵件、音樂、程式設計軟體等核心應用中。使用者只需要對著iPhone輕聲低語，就可以呼叫各種應用。為什麼偏偏是語音輸入呢？因為語音輸入才是人類交流的初始設定。語音輸入重歸C位，只不過是技術對人類行為的一次撥亂反正，人類的交流範式重新回到最自然、最合理的狀態。打字輸入才是人類走的彎路很多人把打字當作網際網路交流的初始設定，在我潛伏的輸入法愛好者群組裡，就有一位帶點原教旨主義色彩的打字擁躉。他至今仍抗拒使用語音輸入，他認為，對著手機電腦自言自語，簡直愚蠢到家。至於原因，他回覆了略有循環論證嫌疑的十一個字：“語音是異端，打字才是正統。”然而回望人類歷史，打字交流才是人類走過的彎路，語音從古至今都是人類交流的主要方式。即使是今天，世界上現存的約7000種語言裡，絕大部分都沒有文字，只依靠口口相傳。科學界普遍認為口語誕生自10到20萬年前。而目前已知最早的成型文字是5500年前蘇美爾人的楔形文字。我們打字用的QWERTY鍵盤，直到19世紀中後葉才出現，距今不過150年。如果把人類語言交流史劃分為24小時，那麼人類在最後一分鐘才開始用鍵盤輸入文字。套用《思考，快與慢》的作者丹尼爾·卡尼曼的觀點，說話屬於“系統1”，是刻在基因裡的本能，不需要太多思考，依賴直覺和習慣就行。而打字則屬於“系統2”，是你通過無數次敲擊建立起來的後天習慣，是需要費腦費力才能完成的動作。與英文輸入的簡單直接相比，中文輸入更難更複雜。從打字機時代開始，在很長一段時間裡，用鍵盤輸入漢字是難倒無數英雄漢的技術難題，有人甚至想通過消滅漢字採用拉丁字母的方式“曲線救國”。1980年，一本叫《語文現代化》的雜誌這樣寫道：“歷史將證明，電子電腦是方塊漢字的掘墓人，也是漢語拼音文字的助產士。”被很多人視為網際網路交流正統方式的中文打字，其實不過短短半世紀的歷史。1983 年，王永民發明五筆字型，通過“橫、豎、撇、捺、折”五種筆畫給簡體中文編碼，由於其重位元率非常低，熟練者可以實現盲打，很快就成為風靡全國的打字方式。“王旁青頭戔五一”。很多年輕人不知道，自己父母那一輩，打字是需要背口訣的，甚至需要報班花很長時間培訓才能掌握的技能。再後來，拼音輸入法的出現和網際網路的普及，才讓打字的門檻降下來。但直到今天，中文輸入法依然難以解決一個矛盾：輸入效率高的五筆，門檻也高；門檻低的拼音，輸入效率也低。你在 2026 年的知乎隨手搜一下“輸入法”這個關鍵詞，就會發現多個吐槽輸入法越來越難用的話題。五筆、拼音、注音、倉頡，不同的輸入方案捲來捲去，但它們之間並無本質差別，並不能真正解決漢字輸入法的痛點。或許我們應該認識到，打字，只不過是人類在語音和圖像互動技術尚未成熟之前的權宜之計。如今，大模型技術日漸成熟，語音識別技術有了質的飛躍，規模化的替代效率低下的打字輸入法，幾乎是必然。倫敦政治經濟學院的一項研究發現，預計到 2028 年，生成式 AI 將主要以語音方式互動。當然，短期內語音輸入並不會完全取代傳統輸入法。語音輸入還有很大的進步空間，飯要一口一口吃，路也要一步一步走。就我個人而言，重度使用語音輸入後有兩個意外之喜。一是改變了我的寫作方式。以前寫文章，我需要在電腦前一坐就是幾個小時，即使是用著符合人體工學的鍵盤、滑鼠和椅子，也難以抵擋久坐帶來的生理不適。你現在看到的這篇文章，大部分文字是我在沙發上躺著、在馬桶上坐著、在地鐵上站著寫出來的，我告別了預留大塊時間的寫作模式，轉而變成“隨地大小寫”。與其說我面對的是一個語音輸入法，不如說是在對著一個具有整理、思考能力和主觀能動性的秘書，既忠實我的原意，也不至於照搬全收。也許我們可以效仿眼下在程式設計師中流行的Vibe Coding（氛圍程式設計），為碼字的人也創造一個全新的名詞——Vibe Writing（氛圍寫作）。二是語音讓我與 AI 的交流更高效。打字時受制於速度，我傾向使用更簡短的提示詞，往往需要多輪互動才能得到想要的結果。而語音輸入時，我會一口氣說出一段很長的提示詞，甚至達到四五百字，常常一次性就能得到滿意的答案。就像現在的 10 後不知道為什麼手機螢幕上電話的標識是聽筒，未來的一代或許也不知道，為什麼曾經人們輸入文字還要專門裝一個輸入法。 (36氪)

H200晶片銷往東村引猜想，大摩研報唱多台積電：存在一定可能拿下中國大陸AI GPU代工訂單

輝達H200晶片有望對中國出口，這條消息傳開後，引發了市場的無盡遐想。其中廣為流傳的一點猜測是，假如東村和西村關係因此緩和，東村的AI GPU代工業務，會否花落台積電。針對這個問題，摩根士丹利近日發佈研究報告稱，如果中國AI GPU代工業務真的落地，將成為台積電業績的重要增量。大摩在報告中明確重申其“首選股”地位，維持增持投資評級，目標價1688新台幣。Part.01 市場最關心的2個問題大摩認為，當前投資者最糾結兩個核心問題，其實也決定了台積電切入中國AI市場的節奏：西村考慮允許H200對東村出口，是要改善貿易關係嗎？東村AI晶片公司“降級設計”，能拿到台積電代工嗎？大摩的判斷是有機會！此前就有消息稱，中國晶片企業正通過聚焦“推理場景”（比如AI語音助手、圖像識別等輕量級應用）降低晶片性能，以符合代工要求。供應鏈調研顯示，壁仞科技等本土企業已在採用台積電工藝設計相關晶片，還能用LPDDR替代高端HBM記憶體，精準適配推理需求。Part.02 台積電的底氣很多人擔心台積電過度“依賴中國需求”，但公司自己的表態很有信心：在2025年第三季度財報電話會議上，管理層明確說，即便來自中國大陸的機遇有限，未來5年AI相關業務的復合年增長率也能達到40%左右或更高。這意味著，中國大陸市場對台積電是“錦上添花”而非“雪中送炭”：現有AI業務的高增長已能支撐估值，一旦政策放開，中國大陸AI半導體的龐大需求，只會進一步推高其業績天花板。Part.03 輝達B40遇冷，本土晶片補位大摩在報告指出，輝達B40產量低於預期，核心原因是“性價比對中國客戶沒吸引力”，這給本土晶片和台積電的合作留足了空間；目前中國AI推理計算主要靠三類晶片：5090遊戲顯示卡、改良版Hopper晶片，以及本土設計晶片；隨著中國LME衛星、AI大模型等需求爆發，推理晶片的需求還會持續增長，台積電的工藝優勢的會更突出。Part.04 對中國本土代工廠的影響如果台積電真的切入中國AI GPU代工，會不會分流本土代工廠的需求？大摩認為，中芯國際仍被看好：即便需求分流，其技術和產能優勢仍能穩住核心份額。但華虹半導體壓力較大：關聯公司HLMC的7nm業務可能首當其衝受到衝擊，因為其在高端製程的競爭力相對較弱。 (智通財經APP)

OpenAI又放大招！語音AI秒殺Siri？

昨晚你被GPT-Realtime刷屏了嗎？這次OpenAI真的玩大了！ 😱想像一下：你剛問完問題，AI就秒回，比人類反應還快！不是文字，是真人般的語音對話，流暢得讓你懷疑對面坐著個活人。這就是GPT-Realtime的魅力——告別傳統語音助手的機械感，擁抱真正的智能對話！💡 三大殺手鐧讓人驚豔：秒級響應，告別等待焦慮！以前語音AI要轉錄→理解→生成→播放，現在直接音訊處理，延遲幾乎為零。試想客服場景，顧客剛說完問題，AI立馬給出專業回覆，這效率誰不愛？智商爆表，精準率82.8%！能聽懂笑聲、捕捉情緒變化，甚至在句子中間無縫切換語言。西班牙語問個電話號碼？日語聊個天？毫無壓力！比上一代提升17%，這進步簡直可怕。成本直降20%，普通人也能用！之前每百萬音訊輸入要40美元，現在32美元，輸出也從80美元降到64美元。創業者終於不用為語音AI的帳單發愁了！更絕的是，Zillow、T-Mobile這些大廠已經搶先體驗，房產搜尋、客戶服務都能像朋友聊天一樣自然。想像一下，找房子時AI能根據你的生活方式推薦，還能用溫柔的聲音討論貸款方案，這體驗絕了！ 🏠Cedar和Marin兩個新聲音更是顛覆傳統，自然度和表現力讓人分不清真假。配合MCP協議支援，開發者接入資料變得超簡單，就像給AI插上了USB介面。當AI語音助手變得如此智能和親切，我們的工作、生活會發生怎樣的變化？客服、教育、個人助理...那個行業會首先被顛覆？你試過最智能的語音AI是什麼？GPT-Realtime會成為你的新寵嗎？ (澤問科技)

蘋果Siri王炸新功能曝出，AI操控一切App，又一華人AI研發跳槽Meta

蘋果將實現“動口不動手”操作iPhone。新版Siri終於要來了！智東西8月11日消息，知名蘋果爆料人、彭博社記者馬克·古爾曼最新爆料，蘋果即將推出新版Siri語音控制功能，並升級其開發者框架App Intents。升級後的Siri將可以僅用聲音指示就可以自主打開App完成發帖、購物等操作。對於新款產品，蘋果首款OLED MacBook Pro推遲至2026年底至2027年初，搭載M5晶片的版本將於明年初發佈。此外，爆料還稱，蘋果CEO蒂姆·庫克與美國總統川普達成協議，將在美國本土生產iPhone和Apple Watch的蓋板玻璃。蘋果正完成正式版iOS 26和Liquid Glass 1.0的研發工作，且蘋果短期內不會在美國生產iPhone。另外，蘋果AI工程師朱雲轉投Meta，這已是自龐若鳴以來的離開蘋果的第5位AI工程師。01. 新一代siri要來了！僅用語音就能操作應用程式在此前，許多蘋果觀察人士惋惜Siri無法呼叫個人資訊來更好地處理請求，例如尋找朋友傳送的特定檔案、定位通過簡訊分享的歌曲，或從照片中調取駕照號碼。這項能力本是2024年全球開發者大會上Siri演示的亮點，但其卻被推遲到現在。▲2024年全球開發者大會上展示的Siri（圖源：CNBC）但古爾曼認為這沒什麼大不了的，真正改變遊戲規則且蘋果幾乎未曾提及的，是升級版的開發者框架App Intents，這項技術可能最終使Siri成為iPhone真正的免提控製器。新的App Intents將意味著，僅用聲音，使用者就能指示Siri找到一張特定照片，編輯它並行送出去；或是在Instagram帖子上發表評論；或是滾動瀏覽購物應用並將某物加入購物車。或是不觸碰螢幕就登錄某項服務。本質上，Siri將能像你一樣操作你的應用，精確地在它們自己的介面內完成操作。如果蘋果能成功實現這一點，這不僅是一個不錯的易用性升級，更是兌現了近15年前Siri所承諾的願景。這也是蘋果下一個硬體發展的關鍵。蘋果即將推出的家用裝置，例如計畫明年推出的智能顯示器和之後的桌面機器人，都將依賴這項技術來實現自然互動。沒有新的App Intents，這些產品的吸引力可能還不如亞馬遜和Google5年前推出的裝置。這就是為什麼Siri的延期在整個公司的其他產品計畫中產生了連鎖反應，它已經導致智能顯示器的發佈被推遲整整一年。蘋果深知其中利害。在公司內部，測試和完善這一功能已成為其全球資料營運團隊的首要任務，該團隊專門負責將Siri和Apple Intelligence的輸出與原始資料進行比對，排查錯誤並為潛在修復提供依據，蘋果不希望再次因承諾過高而交付不足登上新聞頭條。當前計畫是在春季隨Siri基礎設施全面升級時推出該功能，並進行大力推廣。但據內部消息，公司內部存在一些擔憂：工程師們正竭力確保該系統能相容足夠多的應用程式，並具備處理高風險場景所需的精確度。特別是在健康類、銀行類等對精度要求嚴苛的應用場景，軟體故障的風險令人憂慮。多年來，使用者飽受Siri理解偏差之苦，當手機搞錯你查詢天氣的城市或導航至錯誤餐廳時，雖令人惱火但尚不致命。但若讓現有版本的Siri全面接管所有應用操作，風險係數將呈幾何級增長。正因如此，蘋果選擇暫緩新版Siri的全面鋪開。目前蘋果正與優選第三方應用進行測試，名單包括Uber、AllTrails、Threads、Temu（海外版拼多多）、亞馬遜、YouTube、Facebook、WhatsApp甚至部分遊戲應用。針對銀行等敏感領域，蘋果正考慮嚴格限制Siri的操作權限或直接排除這些功能範疇。這場變革遠不止於提升Siri的智能水平，實質是為蘋果生態系統打造全新的語音優先互動介面。倘若蘋果真能將其成功推向市場，很可能會成為多數使用者始料未及的爆款產品。另外，蘋果首款OLED MacBook Pro推遲至2026年底至2027年初發佈，搭載M5晶片的版本將於明年初發佈。02. 蘋果將在美國本土生產手機和手錶的蓋板玻璃多年來，蘋果CEO蒂姆·庫克一直自豪地強調iPhone玻璃“美國製造”的屬性，這源於與康寧公司的長期合作。但蘋果上周的表態顯示，這一說法並不完全屬實。在與美國總統川普達成的新協議部分內容中，蘋果承諾將在美國本土生產全部iPhone和Apple Watch的蓋板玻璃，暗示此前部分材料實為海外採購。▲美國總統川普與庫克（圖源：彭博社）需說明的是，庫克或許從未明確宣稱所有iPhone玻璃均為美國生產。但他在“美國製造”宣傳中頻繁提及與康寧的合作關係，足以讓公眾形成這種認知。以蘋果2021年的新聞稿為例：“在蘋果先進製造基金支援下，雙方專家共同研發了新型微晶玻璃，其強度源自奈米陶瓷晶體。該材料在康寧肯塔基州哈囉茲堡工廠生產——這裡正是歷代iPhone玻璃的製造基地。”事實上，據知情人士透露，此前僅有部分玻璃產自肯塔基州，因此這項Apple Watch玻璃本土化生產的最新承諾標誌著重大調整。但這仍只是象徵性的舉措，因為蘋果玻璃製造的核心成本與工藝難點在於海外完成的切割與精加工環節，肯塔基州僅負責原始玻璃基板的生產。且蘋果宣稱康寧產線調整將耗資25億美元（約合人民幣179.5億元），該數字在蘋果宣傳的“未來數年6000億美元（約合人民幣4.3兆元）對美投資計畫”面前相形見絀，25億美元僅佔總額的0.4%。古爾曼認為，庫克正雙線操作，既向川普釋放“全面配合政策”訊號，又向公眾行銷這一形象。為維持川普政府好感，庫克顯然認為這值得付出任何代價。但消費者是否買帳仍是未知數，部分使用者或願為避開政治鬧劇支付溢價，另一些則樂見庫克保護股東利益並維持產品售價的務實策略。03. 蘋果即將完成iOS 26和首版Liquid Glass的開發工作隨著公司準備在9月上旬推出iPhone 17系列及其他新產品，蘋果工程師們正接近完成iOS 26及配套作業系統的最終期限，上周第五個測試版已非常接近最終公開版本的發佈。▲iOS 26（圖源：彭博社）最新的測試版運行相當流暢，公司在整體性能和電池續航方面確實有所改進。最新測試版中最大的變化包括：解鎖iPhone和在控制中心滾動時出現的彈性動畫，以及相機應用中可反轉滑動方向以在視訊、照片、人像和全景等模式間切換的功能。動態島介面還為低電量警報設計了新樣式。還記得三年前蘋果在iPhone 14上推出動態島時，聲稱將逐步改進和擴展該功能嗎？然而除了一兩個小調整外，蘋果幾乎什麼都沒做。這再次印證了蘋果推出某項功能後便基本不再跟進的做法。04. 朱雲跳槽Meta 短期內還將有人離職蘋果又一位AI工程師轉投Meta。上個月，已有四名知名AI模型工程師從蘋果跳槽至Meta的超級智能實驗室，其中包括蘋果基礎模型團隊前負責人龐若明，以及他的三名工程師馬克·李、湯姆·岡特和張博文。如今，第五位AI研究員朱雲也將離開蘋果的模型團隊前往Meta，將加入超級智能實驗室集團現有的基礎模型團隊。▲朱雲（圖源：Linkedin）其領英首頁顯示，朱雲於2022年1月加入蘋果，擔任蘋果機器學習工程師，至今已有近四年的時間。如今對蘋果AI模型團隊來說是個艱難時期，由於公司在人工智慧領域的進展令人失望，該團隊備受壓力。據知情人士透露，在士氣低落和Meta開出天價薪酬的雙重影響下，短期內可能會有更多人離職。05. 結語：蘋果正在經歷轉型陣痛智能顯示器等新硬體延期，暴露出蘋果軟體能力對硬體路線的制約。相較亞馬遜Alexa與GoogleAssistant已建構的智能家居矩陣，蘋果的滯後可能使其錯過家庭入口的關鍵窗口期。連續5名AI核心成員轉投Meta，不僅削弱了其研發實力，更暴露蘋果在生成式AI浪潮中的戰略搖擺，專注垂直場景的蘋果可能還將面臨更嚴峻的人才爭奪。 (智東西)

AI 語音爆發的這半年，一位「局中人」看到的賽道爆發邏輯

蘋果 Siri 折戟，但越來越多的「AI Siri」拿到了融資。過去半年，「AI 語音」賽道正密集地獲得融資。尤其引人注目的是，這些融資多為大額，並且投向早期團隊。比如，前不久 AI 語音應用 Wispr Flow 靠「默念輸入」，完成了 3000 萬美元的 A 輪融資，累計融資額已達 5600 萬美元；語音模型公司 Cartesia 在 3 月份完成了 6400 萬美元的 A 輪融資，累計融資 9100 萬美元；AI 語音合成公司 ElevenLabs 更是在 1 月份宣佈完成 1.8 億美元的 C 輪融資，估值超過 30 億美元。與此同時，無論是 Meta、OpenAI、Google 等科技巨頭，還是 MiniMax 等創業公司，都在密集發佈自己的語音模型或語音產品。Siri 也被曝出或將被 ChatGPT 或 Claude 等模型接管，來跟上語音互動的進展。這些消息無一例外都指向了 AI 語音的火爆。為什麼過去半年多以來，AI 語音領域會如此集中地爆發？聲智副總裁黃贇賀認為，語音對話從一個 App 中的功能模組，迅速進化為 AI 時代入口等級的存在，與大模型的加持有極大關係。在智能音箱紅極一時的年代，大部分我們熟知的智能音箱品牌都搭載了聲智的遠場聲學互動技術，比如小愛同學、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞，實際上也是來自於聲智。這家公司創辦於 2016 年，一直在聲學+ AI 交叉領域探索。然而，作為一家在幕後提供 AI 聲學技術的公司，在大模型浪潮來臨之後，果斷選擇下場投身開發自己的 C 端產品。毫無疑問，他們看到了這波「大模型+語音」浪潮裡新的商業機會，其旗下的 AI 耳機目前出貨量已接近 100 萬套。前不久，極客公園與聲智副總裁黃贇賀聊了聊 AI 語音市場的爆發邏輯、語音互動的「卡點」，以及它將如何影響我們的未來。以下內容根據黃贇賀的講述和聲智的論文整理而成：AI 語音的想像力，已經遠在 Siri 之上｜圖片來源：網路01 AI 語音為何現在爆發了？最近兩年，越來越多的 AI 語音初創團隊獲得大額融資，集中爆發。其中，一個很重要的推動因素是，大模型讓聲音這項基礎能力首次實現了「可程式設計化」。「可程式設計化」這個詞，意味著將一種能力或者一個對象，通過清晰的介面和邏輯，變得可以被程式碼自由地呼叫、組合、修改和控制。過去，文字是可程式設計的，圖像是可程式設計的，甚至視訊也是可程式設計的（比如視訊編輯軟體）。但聲音更多的是一種「輸入」或「輸出」的介質，其內部的複雜結構和資訊，很難被軟體直接「程式設計」和「理解」。傳統的語音識別，更多是把聲音轉換成文字，然後對文字進行處理。比如，之前在深圳、成都有很多做聲音標註的團隊，拿到語音之後，再人工轉換成文字，打上不同的標籤，比如各種特徵、意向的標籤。大模型來了之後，打標籤的這項工作可以交給大模型，它比大量的人工團隊標得快和准。以前做 NLP 的背後都是一堆苦逼的營運在那裡打標籤，讓 AI 系統能夠識別每個句子的意向。過去，語音的開發，每增加一個功能，都需要從頭寫程式碼，費時費力。比如，想讓智能音箱支援「點外賣」，得單獨開發一套語音識別和語義邏輯，成本高、周期長。而現在 AI 大模型可以解決了。更重要的，依靠大模型對多模態資料的深度理解能力，對聲學訊號的更細緻解析，使得聲音本身攜帶的除了文字資訊之外的更多資訊，開始被 AI 系統直接捕捉、理解和「程式設計」。這種可程式設計化，意味著 AI 可以像處理資料一樣處理聲音。它可以分析聲音的頻率、振幅、波形，提取出情緒特徵、識別不同的聲源、聲源距離、甚至預測你的意圖。這時，聲音包含的不再僅僅是「你說了什麼」，更是「你如何說」、「你在那裡說」、「誰在說」以及「你說了之後希望發生什麼」。由此，聲音也成為了真正的互動引擎。02 真正的語音互動，不是「Voice」而是「Sound」其實，很多人以為，語音互動就是「Voice」（語音）。但其實 Voice 這個詞是一個狹窄概念。真正的語音互動，核心不是「Voice」，而是「Sound」（聲音）。Sound 裡面包含了 Voice。具體來說，「Sound」包含了更豐富的元素：語調、音色、節奏、情緒，更重要的是環境音。環境音裡面可能包含了環境中的各種非語音資訊，比如背景音樂、環境噪音（風聲、雨聲、車聲）、物體發出的聲音（開門聲、打字聲）、以及人類語音中包含的非語義資訊（語調、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等）。比如說，你咳嗽的時候，跟 AI 說話，它可能會識別出咳嗽，然後跟你說多喝水；比如，你在咖啡館說，「幫我找個安靜的地方」，AI 不僅要理解你的指令，還要從背景音中判斷出你當前的環境嘈雜，從而推薦附近的圖書館。當我說「下一代對話互動的入口並非『Voice』，而是『Sound』」時，我指的是 AI 系統將不再僅僅依賴於識別你說的「詞」，而是能夠全面感知和理解你所處環境的「聲學場景」中的所有關鍵元素。只有當 AI 能夠全面感知並解析「Sound」中包含的這些多維度資訊時，它才能真正理解使用者的深層需求，提供更精準、更個性化、更富有情感的互動。這才是真正的「語音互動」，它不僅僅是「聽懂」字面意思，更是「聽懂」你的「言外之意」和「心聲」。03 語音互動的「卡點」，大廠燒錢也沒用儘管大模型帶來了語音互動的巨大飛躍，但語音互動當下依然存在一個核心的「卡點」，而這個卡點根植於物理學，具體來說，就是聲學。我們常說「聽清、聽懂、會說」。「聽懂」和「會說」的能力，正在被大模型以前所未有的速度提升。但「聽清」這個最基礎的環節，卻受到物理層面的制約。如果 AI 聽不清你的指令，即便它能「聽懂」再複雜的語義，能「會說」再動聽的話語，那也都是空中樓閣。比如說當下最熱門的具身智能，現在很多機器人都是電驅動的，那麼它帶來幾個大問題，一方面是電路的噪聲本身就很大，另一方面是關節噪聲，還有就是很多機器人是金屬材質，厚厚的，聲音在穿透時會大幅衰減。所以，機器人動起來的時候，噪聲很大，尤其在室外，更難聽清楚人的指令。要麼大聲喊，或者拿麥克風喊。因此，現在很多機器人都要靠遙控器來控制。當下最先進的具身智慧型手機器人仍然依賴於遙控器來操控｜圖片來源：網路這方面，其實就需要對聲學層面的突破，比如說環境噪聲的抑制，比如電路底噪的抑制，還有嘯叫的抑制、混響迴響的抑制等等。而這些就是物理學科的邏輯，它需要資料樣本，需要 know how 的壁壘，不僅是技術問題，而是時間的問題，需要時間去採集聲音、做訓練。這不是燒錢能解決的。讓 AI 精準地「聽清」使用者的指令，依然是一個世界級的難題。而聲學相關的人才很少，所以像Google、微軟、蘋果經常會收購聲學技術的初創公司，幾乎只要出來一家就會收購他們。大家都明白，要建構真正的下一代人機互動系統，擁有核心的聲學能力是基石。04 語音互動的下一站，是實現「共情」現在很多 AI 應用的日活、留存不高，有個很大的原因就是普通人本身是不會提問的，讓人向大模型提問，這本身就是一個非常高的互動門檻。好的提問還需要學識、表達等基礎，所以停留在文字層面的問答，本身就是一種門檻限制。而語音帶來的一種可能性是，它正在開啟一個全新的階段——人機互動的「共情模式」。如果把語音互動比作一個「UI 介面」，那這個介面會長什麼樣？我們可以做個推演，它的構成要素可能會有：情緒識別：AI 通過分析語調、音量、語速，判斷使用者的情感狀態。比如，你的聲音顫抖，AI 可能推測你在緊張或傷心。意圖理解：不僅聽懂你說了什麼，還要明白你想做什麼。比如，你說「播放音樂」，AI 會根據你的情緒，決定是放搖滾還是古典。聲紋識別：通過獨一無二的音聲波特徵，區分不同使用者。比如，家裡的智能音箱能自動切換到「孩子模式」模式，只為孩子的聲音提供安全的回應。情緒生成：AI 的回應需要帶有情感化的表達。比如，用溫暖的語氣說「別擔心，我來幫你解決」，而不是機械的「好的，正在處理」。這些要素的背後，是 AI 從「功能導向」到「情感導向」的轉變，AI 會與人實現共情。這種互動，能顯著提升長時間互動的質量和親密感。不僅如此，從狹義的「Voice」拓展到廣義的「Sound」，當 AI 能接收到的不僅僅是使用者的指令，而是整個物理世界的即時反饋時，我們可以去建構一個「聲學世界模型」。這個「聲學世界模型」可以理解聲音在物理世界中產生、傳播和互動的根本規律，它不僅要「聽清」和「聽懂」，更要具備「聲學常識」和「聲學推理」的能力：它能從一聲悶響中分辨出是書本落地還是箱子倒塌；能通過回聲判斷出房間的大小與空曠程度；更能理解「腳步聲由遠及近」背後所蘊含的物理運動邏輯。未來，當這樣一個聲學世界模型與視覺、語言大模型深度融合時，具身智慧型手機器人將不再「失聰」和冰冷。這也是我們正在做的。 (極客公園)

不見投資人，年入1億美金，一款AI錄音機的10倍增長神話

回溯至兩年前，鮮少有人能預見，一款貼在iPhone背後的AI卡片錄音機，能讓一家年輕的公司幾年內席捲海外市場。2021年，年輕的連續創業者許高正在尋找第四次創業方向。他發現，Google上一個名為“Live Transcribe”的APP下載量超過10億。這是一個即時語音轉文字的應用，基於自動語音識別技術（ASR），可將即時對話內容轉錄為文字，但由於無法儲存音訊或文字，因此還需將資訊挪移至Google Pixel上才能使用。語音轉文字顯然是個剛需。中國錄音筆中支援即時轉寫的AI錄音筆佔比超35%。弔詭的是，在海外沒有一款硬體能解決這個問題。錄音筆大廠索尼、Olympus、Philips的產品迭代停滯將近十年，功能上仍以單一錄音為主，並沒有即時轉寫、多場景適配、智能降噪等技術。這是一個絕佳的時機。關注到海外人群對語音轉文字工具的迫切需要，許高創立Plaud.AI並以錄音裝置為切入點，在次年發佈了首款支援手機控制、具備IoT能力的錄音筆產品。半年內，公司實現了盈利。自此，Plaud.AI進入了無人之地。2023年6月，Plaud.AI推出了搭載AI功能、可無線控制的智能錄音筆Plaud Note，營收和銷量迎來爆發式增長。Plaud Note（圖源/企業）根據Z Potentials報導，截至2024年11月，Plaud.AI年化收入1億美金，連續2年達十倍增長。創始人兼CEO許高在接受《時代》雜誌採訪中也透露，其產品已向全球出貨近70萬台。“我們做的事情就像無線耳機取代有線耳機一樣。定價上是按照業界均價的三倍來定價，但依然做到了整個品類銷售額的第一名。”他在接受媒體採訪時公開表示。投資人當然不會忽略這個項目。然而，公開資訊中暫無Plaud.AI獲得融資的記錄，也未見任何投資機構以資方身份發聲或披露相關資訊。多位業內人士告訴硬氪，不少投資人對Plaud.AI頗感興趣，但創始人始終沒有深度溝通意向。有投資人告訴硬氪，產品Plaud Note爆火後，有不少機構找上門想參股，最後連創始人都沒見到。也有投資人坦言，儘管Plaud.AI成長速度超預期，部分機構曾密切關注過該項目，但一個現實的情況是，這類消費科技向產品在早期其實很容易踩雷，投資人往往難以決策出手。“核心原因就在於，AI錄音筆作為一個並不創新的產品形態，其差異化價值在前期難以被直觀感知。再加上海外使用者和國內使用者的需求也有很大不同，產品力存在不確定性，所以我們對這類項目的態度也就愈發謹慎。”關注智能硬體領域的投資人胡昀告訴硬氪。Plaud.AI背後是硬體創業公司的悄然轉變。過去，入局者比拚供應鏈能力、研發實力、資金多寡，如今，創業者卻能用難以捉摸的“體驗”撬動大市場。硬體賽道的投資人發現，當中國公司徹底擁抱全球市場，賭局更加複雜，留給他們猶豫的時間，卻越來越短。01 從解決單點任務到一站式方案每周一晚上9點，位於深圳的一家跨境電商公司都會準時召開跨國周會。會議室裡，電腦螢幕上跳動著的Google Meet視訊畫面，彈出來自洛杉磯、柏林、東京和曼谷等團隊成員的聊天窗口，他們依次匯報著上周的供應鏈問題和管道出貨情況，當中偶爾夾雜著泰式英語和德國銷售術語。以往，這樣的會議需要至少需要兩名員工參與：一人緊盯發言同步敲字，另一人用手機錄製音訊。即使有系統自動字幕，但各種專業術語和交叉討論仍然增加了不少復盤難度。散會後，他們要將零散的筆記與錄音對照，整理會議紀要再逐條拆解，至少要整理半天，才能把資料遞到老闆桌前。一旦遇到緊急問題，很容易錯過最佳的響應時間。而現在，這些問題都可以用一個卡片大小的錄音筆來解決。Plaud Note是一款無線控制的智能錄音筆，使用者輕觸開啟按鈕即可開始錄音，當中內建了三個高靈敏度麥克風，以保障錄音效果清晰無雜音。它的外形輕薄，厚度只有2.9至3毫米，支援Magsafe磁吸技術，能吸附在手機背部。滿電狀態下，最長連續錄音可達到30小時，並容納約480小時的音訊內容。同時，它還具備AI降噪最佳化功能。錄音結束後，其內容可同步上傳至雲端保存，防止資料丟失。Plaud Note支援Magsafe磁吸（圖源/企業）而在具體功能上，Plaud Note最大賣點之一，是它作為全球首款搭載ChatGPT的錄音筆，將AI智能演算法與錄音功能有效融合。Plaud Note支援近60種語言的文字轉換，可將錄音內容整理成腦圖、筆記或日記形式，提升資訊整理效率。Plaud.AI發現了使用者最底層的需求：錄音只是手段，最終目的是完成內容整理。比如開會錄音的最終目的，是為了不遺漏關鍵決策點和待辦事項，而不是整理出一份講話稿。使用Plaud Note錄音中（圖源/企業）“今天市場上各種消費電子商品琳瑯滿目，拉高了使用者對創新產品的功能整合度、場景適配性與使用體驗的期待值，使用者不再為單一賣點買單，而是希望能解決實際生活裡的多元問題。對企業來說，產品能否精準切中痛點，需要團隊花時間深入場景去理解使用者。”胡昀說。他告訴硬氪，Plaud Note能夠爆火的原因就在於，它建構了一套完整的使用者體驗閉環——從硬體音訊採集、智能轉寫再到深度內容總結提煉，形成一站式的解決方案，無需在不同產品間切換，極大提升了效率與使用便捷性。正如許高所說，“未來每個人都會擁有一個隨身AI裝置，捕捉其說過、聽過、看過的內容。”所以Plaud.AI也在不斷地挖下挖掘，許高也透露，公司正探索如何將Plaud Note融入更多工作場景；比如在生成摘要的基礎上增加協作功能，通過API打通Salesforce、HubSpot等SaaS工具系統，實現語音資料的自動識別與跨平台同步。如果要一邊錄音一邊生成紀要，Plaud.AI是唯一選項。所以它們理所應當地賺起兩份錢：硬體本身售價159美元，如果要使用全部AI功能，使用者每月需再支付9.9美元的訂閱費用。02 賭一把還是錯過大收益？過去兩年，當AI硬體創業者們蜂擁至人形機器人、AI眼鏡等資本風口時，Plaud.AI卻將目光投向看似傳統到近乎平淡的錄音筆品類。在這個稱得上被智慧型手機邊緣化的工具賽道，它捕捉到指數級增長的潛在商業機會。Plaud.AI在爆發式增長的同時，吸引了眾多投資人的關注，可以說成了大熱門。然而，Plaud.AI剛誕生時，情況截然相反。長期服務消費電子、智能硬體項目的FA劉暢則告訴硬氪，即使是如Plaud.AI這樣創收能力強勁的項目，實際上在這個圈子裡，早期並不吃香。“很多時候這類項目都推不出去，可能連CEO都拿不準產品到底能不能爆，投資人也就更猶豫了。”另一個典型案例是無弦吉他品牌LiberLive，兩年內實現年營收超10億、銷量全球第一，而在其早期參加路演時，投資人對這個創新品類普遍興趣寥寥。這類消費科技產品在資本市場往往面臨一定的認知時滯，它呈現出獨特的投資周期特性。在萌芽階段，早期投資人因產品需求未經過市場的充分驗證，難以預見其使用者增長潛力而躊躇不前。投資機會轉瞬即逝。等到產品引爆市場、現金流日趨穩健時，企業已建立起自造血能力，更傾向於保持產品迭代與業務佈局的獨立性，反而對資本持審慎態度，投資人已經難以介入。Plaud Note在海外參展（圖源/企業）“傳統消費電子投資的邏輯框架正在失效。過去投資人可依靠技術參數對比、市場規模測算和使用者調研資料來判斷，但這種辦法到了盡頭，硬體創新已進入一個模糊地帶。”劉暢告訴硬氪，“如今，一款硬體產品的成功標準不再由硬體參數主導，而是取決於能否精準捕捉使用者痛點和需求，與使用者認知習慣、使用場景和情感訴求深度繫結。這種動態變化的關聯性，是任何靜態的市場分析都難以預見和決策的。”同時，硬體賽道普遍面臨“三明治困局”，夾在大廠和華強北白牌之間。以Plaud.AI所處的智能錄音賽道為例，這種產品上有手機廠商升級原生系統的AI轉寫、筆記等功能擠壓，下有白牌廠商通過價格戰搶奪市場空間。“當產品差異化越來越依賴於場景創新和產品體驗，對創業公司來，需要在使用者洞察和軟體能力建構上投入大量時間和資源，這註定是一個長期的過程，與資本期待的短期回報存在矛盾，無疑進一步加深了投資決策困境。”胡昀告訴硬氪。回到Plaud.AI本身，目前來看，它們在產品研發策略上試圖通過多矩陣產品形成差異化覆蓋。2024年8月，Plaud.AI推出可穿戴式AI錄音機Plaud NotePin，採用藥丸形狀的機身，可搭配掛繩、腕帶和夾子等多種配件，售價169美元。Plaud Note定位為管理者的會議效率工具，具備電話錄音功能；Plaud NotePin則專注於移動場景，以磁吸式穿戴設計適配高頻對話的工作人群，如醫生、建築管理者、奢侈品從業者、數字遊牧民等。Plaud.AI推出的兩款錄音產品（圖源/企業）“針對不同的人群和場景，什麼樣的形態能夠提供最佳的產品體驗，我們就會去開發這樣的產品形態。”許高這樣表示。而Plaud.AI需要在一個短暫的時間窗口迅速長大、站穩，因為一旦手機本身能完成Plaud Note的功能，創業公司會很難抗爭。但無論如何，Plaud.AI給無數創業者展示了誘人圖景：在複雜而廣闊的海外市場，背靠中國強大的供應鏈，一個寂寂無名的年輕人也能締造增長神話。 (硬氪)

蘋果 AI 的崩塌真相：從賈伯斯願景，到高管失誤的困局

一向在意公眾形象的蘋果，因為 AI 拉跨，這次被扒乾淨了。AI，已經熱了快三年了。各大科技巨頭爭先恐後下注入局，可偏偏在這個熱潮中，最接近我們生活的蘋果，卻看起來離 AI 最遠。最大的巨頭，在最熱的潮流面前，好似隱身了。去年 6 月 WWDC 上，蘋果慢吞地發佈了 Apple Intelligence，可如今快一年過去，對大部分使用者來說，Apple Intelligence 依舊只聞其聲、不見其形。全世界都看到蘋果的 AI 做不好了，但沒人知道到底發生了什麼。知名蘋果分析師 Mark Gurman 剛剛在外媒發出一篇長文，題為《Why Apple Still Hasn』t Cracked AI》（為何蘋果仍未攻克人工智慧），揭露了蘋果內部對 AI 態度的搖擺，內部的鬥爭和難以克服的技術瓶頸。值得注意的是，Gurman 用的是「Still hasn』t（仍未）」，這詞就已經給蘋果的現狀定了調。本文將通過重組原文以呈現蘋果在 AI 領域的歷史、現狀、問題根源及未來挑戰，剖析蘋果為何在 AI 賽道上步履維艱，讓 AI 成為其阿喀琉斯之踵。01 14 年前的 Siri，概念已是大模型2011 年 10 月 4 日，賈伯斯去世前一天，他留給蘋果的遺產 Siri 問世了。彼時 Siri 宛如科幻成真的產物，它能聽懂使用者的語音指令，能預訂餐廳、尋找電影院或叫計程車，蘋果再一次把未來科技概念變成了主流產品。伴隨著一代神機 iPhone 4s 共同發佈的 Siri｜圖片來源：Apple當時，賈伯斯對打造搜尋引擎興趣不大。一位曾與他共事的人說：「賈伯斯不相信使用者會主動去搜尋東西，他認為蘋果的職責是精心挑選並向使用者展示他們想要的內容。」這一理念，如同賈伯斯的許多信念一樣，在他去世後依然深刻影響著蘋果公司。賈伯斯首次接觸到當時還是 App Store 裡一款應用的 Siri 時，他立刻被吸引了。Siri 的聯合創始人 Dag Kittlaus 回憶，Siri 的終極目標是「你可以對著網際網路說話，助手會為你處理一切。你甚至無需知道資訊來源，應用和網站發現的問題也將被解決。」這正是當下大語言模型最廣泛的應用場景。賈伯斯立刻意識到，Siri 遠不止一款應用，他很快聯絡了 Kittlaus，邀請 Siri 團隊到家中面談，在長達三小時的會面中，賈伯斯提出收購他們的公司。Kittlaus 起初拒絕收購提案，但耐不住賈伯斯連續 24 天每天致電勸說。最終，Kittlaus 同意出售 Siri，賈伯斯馬上把 Siri 列為蘋果的頂級開發項目，並且在他的生命末期也全情投入在 Siri 的研發上。當時 Siri 引領了智能語音助手市場，然而幾年後，Google、亞馬遜、小米等競爭對手紛紛推出了更先進的語音助手和智能音箱，而 Siri 卻看不到顯著進步。伴隨 Siri 的啟動，蘋果也開啟了機器學習的研究，但主要用於面部和指紋辨識、智能建議（比如根據交通狀況提醒你何時出發）、改進地圖，以及當時的重點項目：頭顯和汽車。使用 Siri 查詢天氣｜圖片來源：Apple最初幾年 Siri 的開發重點只集中在基礎任務上，如提供天氣資訊、設定定時器、播放音樂和處理簡訊。看行動，蘋果早早就佈局到了 AI 行業，他們曾收購了多家小型 AI 公司，包括機器學習公司 Laserlike、Tuplejump、Turi。據知情人士透露，蘋果甚至考慮以約 40 億美元收購 Mobileye Global Inc.，這可能是蘋果有史以來最大規模的收購。Mobileye 做的是加速自動駕駛系統和電腦視覺技術的開發。但最終蘋果放棄了這筆交易，2017 年英特爾以 150 億美元收購了 Mobileye。所以看方向，蘋果並沒有把 AI 投注到語音助手領域。那時，僅成立半年的 OpenAI 宣稱將製造「通用」機器人。但 Siri 還像它被收購時一樣，在無數台 iPhone 上制定鬧鐘、查詢天氣、播放音樂。02 期望、內訌、排擠有錢、有地位、有實力的蘋果，為什麼在 AI 上栽了跟頭？或許也只有資深蘋果分析師 Mark Gurman 能接觸到這麼多內幕消息，他用了極大篇幅報導了蘋果內部在 AI 上的內訌。2018 年，蘋果從Google挖來了 John Giannandrea（業內稱其為 JG）擔任 AI 負責人。蘋果 AI 負責人 John Giannandrea｜圖片來源：AppleJG 此前負責Google的搜尋和 AI 部門，帶領團隊在Google相簿、翻譯和 Gmail 等產品中部署 AI 技術。「JG 不僅在Google被視為僅次於 CEO 的最具影響力高管，還曾擔任網際網路先驅網景的首席技術官。」一位參與招聘的人士表示：「還能找到比他更合適的人嗎？」對蘋果來說，挖來 JG 不僅可以重挫競爭對手Google，他更被期望成為讓蘋果轉型為 AI 領頭羊的第一步。在當時蘋果官方發佈的新聞稿裡，庫克表示「機器學習和 AI 對於蘋果公司的未來發展至關重要，它不僅會徹底改變人們與技術進行互動的方式，而且已經為使用者的生活帶來了顯著改善。能夠與 John 攜手並肩，我們感到非常幸運。作為 AI 領域的領軍人物，他必將能夠推動我們在這一關鍵領域的長足發展。」John Giannandrea 於 2018 年加入蘋果負責 AI 和機器學習｜圖片來源：Apple然而，七年後回看，這種期望和樂觀已蕩然無存。蘋果的 AI 不僅沒有起色，反而落後得更遠。核心問題是：高管們對 AI 的路線認知不統一。一些負責軟體工程的高級高管認為，蘋果應在 iOS 中更凸顯 AI。2014 年左右，一位高管就表示：「我們很快意識到，這是一項革命性技術，威力遠超我們最初的理解。」但他們無法說服主管 iOS 的 Craig Federighi 認真對待 AI「很多建議都石沉大海。」然而庫克卻意外地看好 AI，一位曾與他共事的人說：「庫克是蘋果內部最看好 AI 的人之一。他一直對 Siri 落後於 Alexa 感到沮喪。他還對蘋果未能在智能音箱領域佔據一席之地感到不滿。」負責人 JG 對 AI 的判斷卻一直在搖擺。2018 年 JG 加入蘋果時，根據其他高管回憶，他認為蘋果封閉的軟體生態系統是一個獨特優勢，能即時向數十億裝置部署最新的功能。但 JG 很快發現，蘋果需要額外投入數億美元，用於大規模測試以及圖像和文字標註來訓練大模型。JG 從Google挖來頂級 AI 研究員，並組建了負責測試和資料分析的團隊。而後 JG 將矛頭對準 Siri，撤換負責人，提議砍掉 Siri 很少使用的功能。然而，JG 的努力常常受阻。據多位同事透露，軟體負責人 Craig Federighi 不願在 AI 上投入巨資，他不認為 AI 是移動裝置的核心能力。Craig Federighi 是發佈會老熟臉，一直負責蘋果軟體團隊｜圖片來源：Apple一位長期在蘋果工作的老高管說：「Craig 不是那種會說『我們得幹件大事，需要更多預算和人』的傢伙。」其他領導者也有類似保留意見，一位老高管說：「在 AI 領域，你得先投入才能知道產品是什麼。這不是蘋果的做事方式。蘋果在開發產品時，早就知道最終目標是什麼……我們慣常的策略是晚入場，憑藉超 10 億使用者，穩紮穩打，最終擊敗所有人。」但對 AI，這策略行不通。2022 年 11 月 ChatGPT 的發佈，打了蘋果一個措手不及。一位高級高管表示，在此之前蘋果「甚至連 Apple Intelligence 的概念都沒有。」另一位高管說：「OpenAI 的動作並非秘密，任何關注到市場的人，都應該看到並全力投入進去。」ChatGPT 發佈一個月不到，Craig Federighi 就開始用生成式 AI 為軟體項目寫程式碼了。據知情人士透露，他突然看到了 AI 的潛力，聯合了 JG 和其他高管開始與 OpenAI、Anthropic 等 AI 公司會面，抓緊學習和瞭解最新的模型和市場動態。那時起，Craig Federighi 就要求 2024 年的 iOS 18 中要儘可能多地加入 AI 功能。JG 又開始組建開發大語言模型的 AI 團隊，此時他們已經落後競爭對手多年了。據多名員工透露，蘋果內部各類產品開發團隊都負責了一部分 AI 研發，結果導致技術、進度、相容性很難統一。在 2024 年的 WWDC 上，Apple Intelligence 如約而至，但能力有些捉襟見肘。蘋果生成式 AI 的能力的確落後，據彭博社的報導，蘋果公司內部有一款能處理基本的圖像生成的聊天機器人，但該機器人比 ChatGPT 落後至少 25%，在處理大多數查詢時的精準性明顯不足。為了提供消費者真正想要的 AI 產品，蘋果只好去找Google、Anthropic 和 OpenAI 等競爭對手談判。這又在內部產生了分歧，JG 力主採用Google的 Gemini，理由是 OpenAI 對個人資料的保護和持續發展力不如Google。但蘋果的企業發展團隊並不這麼認為，他們看好 OpenAI，於是 WWDC 上宣佈，Siri 無法處理的請求將轉給 ChatGPT。主打 Apple Intelligence 的 iPhone 16，至今仍未「兌現」｜圖片來源：Apple蘋果缺乏自研的 AI 聊天機器人讓很多高管感到不安，但 JG 並不認為大模型是 AI 的未來。據多名員工透露，JG 認為，AI Agent 能真正取代人類還有多年時間，且大多數消費者和他一樣不信任生成式 AI。這些員工們說，這解釋了為何 JG 未全力打造面向消費者的 ChatGPT 競品。他們透露，JG 曾表示，消費者不想要 ChatGPT 那樣的工具。在蘋果內部，JG 因延遲和失誤承擔了大部分指責。而據多名員工透露，JG 一直難以融入蘋果核心高管圈「那些高管共事數十年，營運公司如同家族企業。」JG 的位置就很尷尬，他是一名來自外部的空降高管，難以在蘋果推動核心變革。據一位瞭解他的員工表示「JG 本該更積極地爭取大筆資金，但他不是推銷員，是技術專家。」也有人說，JG 不夠親力親為，也未嚴格要求員工。一位高管說：「蘋果其他工程團隊都全力以赴，按時交付，而 JG 的團隊不是這樣，他們執行力不足。」這種「寬鬆」的印象還延伸到福利上。與其他矽谷巨頭不同，蘋果總部員工需自付食堂餐費。但在 Apple Intelligence 趕工期間，JG 的部分工程師常獲免費餐券，引發其他團隊不滿。一名員工說：「蘋果不提供免費餐食，可他們團隊比別人晚一年交付，還能吃免費午餐。」這些細微之處的區別對待，引發了蘋果內部不同團隊之間的分裂。左：庫克中：JG 右：Craig Federighi ｜圖片來源：彭博社而 JG 所謂缺乏緊迫感可能不僅是性格問題，還有對 AI 理解的哲學考量。他一直對 AI 發展節奏持保守態度，對聊天機器人的價值存疑，他認為 OpenAI、Meta、Google等對手的威脅並不迫切。一些蘋果的同事們表示，JG 堅持認為使用者想要的 AI 助手是裝置的主介面，而非某款應用。儘管遭遇延遲和挫折，他仍堅守這一願景。今年 3 月，JG 被剝奪了所有產品開發控制權，包括 Siri 和機器人項目。據其他高管透露，庫克對 JG 打造新產品的執行力失去了信心。JG 保留了對 AI、大語言模型開發、AI 分析及部分開發團隊的監督權。據內部人士透露，一些高管討論過縮減 JG 的職責或讓他逐步退休的想法，但 Craig Federighi 等人擔心，若 JG 離開，他帶來的頂級研究員和工程師可能也會隨之出走。目前，JG 選擇留下，他對同事表示，在蘋果 AI 工作步入正軌前，他不想離開。他還坦言，不再負責 Siri 讓他鬆了一口氣。03 技術落後，隱私的十字路口科技巨頭的失誤不能簡單歸咎於 JG 一個人。行銷和廣告團隊提前宣傳了未完成的功能，Craig Federighi 是軟體項目的最終決策者，庫克則設定了整個公司的產品開發文化。就連前首席財務官在採購 GPU 時也過於保守，蘋果沒有利用市場主導地位和現金儲備，還是按慣例慢慢採購 AI 硬體。結果全球大部分 GPU 被亞馬遜、微軟等對手搶購一空，導致蘋果的 AI 模型訓練速度更慢了。據蘋果及其他公司高管透露，蘋果的 AI 員工數量遠少於競爭對手，採購用於訓練和運行大語言模型訓練的 GPU 也較少。對蘋果而言，錯過潛在的顛覆性技術並不致命。畢竟蘋果常常會讓同行先探索新技術去驗證市場，而後再打磨產品，向使用者推出設計精良、也更易用的版本。這種策略也塑造了使用者對蘋果「不求最新，但求最好」的印象。一直以來，蘋果都憑藉精心打造的產品、精選內容和每年一次的軟體更新，成為全球最有價值的科技公司。蘋果也是這麼想的，在 5 月的財報電話會議上，庫克被股東問及 AI 延遲的問題時，他表示只是需要更多時間以達到蘋果的質量標準，「沒有太多其他原因，只是比我們預期的時間長了一些。」但問題是，多長算長呢？蘋果已經在 AI 上投入了大量資源卻收效甚微。何況 AI 是一項更快、更複雜的技術。回顧歷史，蘋果最成功的產品都建立在內部開發的核心技術上，比如 iPhone 的多點觸控，Mac 的自研 M 系列晶片。但在 AI 上，很難看到蘋果的技術力。蘋果 M 系列自研晶片已經全面滲透進硬體線裡｜圖片來源：Figma何況在 AI 上，蘋果有著一個其他巨頭都沒有的技術瓶頸：資料利用。多年來，蘋果一直把保護使用者隱私作為宣傳賣點，如今這成為了他們 AI 開發的阻礙。坐擁 23.5 億活躍裝置的蘋果，掌握的網頁搜尋、使用者習慣、通訊資料超過許多競爭對手。但蘋果對 AI 開發者訪問資料的限制遠嚴於Google、Meta 和 OpenAI，這使得蘋果的研究人員只能去用第三方授權資料集和合成資料（專為訓練 AI 建立的人工資料）。一位瞭解蘋果 AI 和軟體開發的人說：「蘋果在 AI 上，每件舉動都有千百個否決，你得與隱私警察鬥爭才能有所進展。」一位持類似觀點的高管說：「看看 X 的 Grok，它不斷進步，因為他們有所有 X 的資料。蘋果拿什麼來訓練自家 AI？」蘋果站在了資料和隱私的十字路口，以往宣傳的優勢變成了技術上的劣勢。在草莽中狂奔的 AI 市場裡，蘋果顯得過於「文雅」了。04 牽一髮動全身蘋果在 AI 上的勢弱，影響的可不止是 Apple Intelligence。去年，蘋果終止了耗資數十億美元、歷時十年的自動駕駛汽車項目，部分原因是也是因為 AI 無法實現全自動駕駛的承諾。根據 Gurman 的推測，AI 上的失敗可能危及蘋果未來的產品計畫，包括 AR 眼鏡、機器人以及能識別周圍物體的 Apple Watch 和 AirPods。蘋果錯誤投注在了造車上｜圖片來源：Apple Explained如果蘋果未來無法給硬體注入 AI，不僅會顛覆蘋果公司「硬體是軟體的載體」的價值觀，還會影響蘋果引以為傲的軟硬體生態鏈。蘋果服務高級副總裁 Eddy Cue 曾對同事表示，蘋果在科技界的霸主地位岌岌可危。上個月，蘋果裝置上的Google搜尋量下降。Eddy Cue 表示：「22 年來從未發生過這種情況，AI 是原因。」他承認使用者越來越依賴大語言模型來獲取資訊。Eddy Cue 指出，蘋果不像埃克森美孚（美國著名石油公司）那樣提供不可或缺的商品，他擔憂 AI 之於蘋果，可能就像當年 iPhone 之於諾基亞，諾基亞倒在蘋果前面，而蘋果可能倒在 AI 前面。他甚至直言稱 iPhone 十年內可能變得無關緊要，「聽起來很瘋狂，但確實可能。」蘋果公司服務高級副總裁 Eddy Cue｜圖片來源：Apple更大的挑戰還來自外部，據知情人士透露，為符合歐盟預期的新規，蘋果正著手修改作業系統，將允許使用者將默認語音助手從 Siri 切換為第三方選項。這意味著若蘋果在語音助手上還沒有重大突破，使用者未來可能就不用 Siri，改用 OpenAI、Anthropic、Meta、Alphabet、X 甚至 DeepSeek 的 AI 助手了。蘋果沒有坐以待斃，據員工透露，蘋果在蘇黎世的 AI 辦公室正在打造一個完全基於大語言模型的 Siri，旨在讓 Siri 更具對話性和資訊整合能力。該秘密項目被稱作 LLM Siri。蘋果還在德克薩斯、西班牙和愛爾蘭的辦公室有數千名分析師，來審查 Apple Intelligence 摘要的精準性，比較資料偏差，評估 AI 幻覺的頻率。至於蘋果自研的聊天機器人，現在一些高管想把 Siri 打造為真正的 ChatGPT 競品。為此，公司開始讓 Siri 訪問開放網路，整合多源資料。據員工透露，蘋果內部測試的聊天機器人在過去六個月取得顯著進展，部分高管認為其性能已媲美 ChatGPT 的近期版本。等了一年的新系統，結果是個調色盤？｜圖片來源：Apple蘋果內部人士透露，對於下個月的 WWDC，公司計畫重點升級現有 Apple Intelligence 功能，並新增一些功能，比如 AI 最佳化的電池管理、虛擬健康教練。而 Siri 的重大升級，甚至一年前「畫的餅」不太可能在 WWDC 上過多提及了。消息人士稱，儘管蘋果內部對「LLM Siri」寄予厚望，但蘋果準備在行銷中將 Apple Intelligence 與 Siri 分開。他們一方面擔心全面落後競品的 Siri 拖累公司的 AI 宣傳。另一方面，蘋果也不敢再提前數月宣佈新功能了。還記得 Siri 聯合創始人 Kittlaus 嗎？他目前對 Siri 的 AI 化依舊樂觀，他說：「所有模型公司都不知道助手是什麼，而蘋果自 2010 年以來一直在研究這一概念。」他認為，蘋果只需讓 Siri 變得更智能：「蘋果有裝置和品牌，只要給 Siri 『換個腦子』，它完全有機會成為首選助手。」十四年前，Siri 的問世讓蘋果站在了智能互動的巔峰，賈伯斯的遠見點燃了語音助手市場，也孕育了如今我們用自然語言就能暢談的聊天機器人。然而，今日的蘋果卻在 AI 賽道上步履維艱，Apple Intelligence 的遲到與失色、Siri 的停滯與落伍、自動駕駛的失敗……能拿到內部消息的 Mark Gurman 揭示的不僅是蘋果表面上在 AI 的遲滯，更是內部戰略的搖擺、技術路徑的困境、以及核心文化與時代脈搏的摩擦。那些曾讓蘋果引以為傲的產品策略和企業文化，在以前所未有的速度重塑著科技格局的 AI 面前，反而成了蘋果的絆腳石。蘋果的未來正因 AI 的短板而蒙上陰影，庫克說，只是時間問題。可時間，蘋果還有多少？至少下個月的 WWDC，我們不會看到期待的答案。 (極客公園)

Meta宣戰OpenAI！發ChatGPT超強平替App，語音互動聯動AI眼鏡，Llama API免費用

Llama API免費體驗，獨立App正式上線。Meta和OpenAI全面開戰了！智東西4月30日報導，今天，在首屆LlamaCon開發者大會上，Meta正式發佈了對標ChatGPT的智能助手Meta AI App，並宣佈面向開發者提供官方Llama API服務的預覽版本。Meta AI App是一款智能助手，基於Llama模型打造，可通過社交媒體帳號瞭解使用者偏好、記住上下文。與ChatGPT一樣，Meta AI App支援語音和文字互動，並額外支援了全雙工語音互動（Full-duplex，允許在接收語音的同時平行處理和響應，支援邊聽邊說、即時打斷等功能）。Meta AI App可作為Meta RayBan AI眼鏡的配套應用程式，使用者能通過該眼鏡直接與Meta AI App對話。同場發佈的Llama API提供了包括Llama 4在內的多款模型，這一API與OpenAI SDK相容，使用OpenAI API服務的產品可無縫切換至Llama API。同時，Meta在新API中提供了用於微調和評估的工具，開發者可以打造符合自身需求的定製化模型，還可使用由AI晶片創企Cerebras和Groq提供的快速推理服務。值得一提的是，過去數年中，Llama相關發佈僅作為Meta Connect開發者大會上的一個環節，此次專門辦會足見他們對AI業務的重視。Meta CEO祖克柏並未出現在發佈會現場，會後其將參與2場對談。關於價格，開發者可通過申請獲取Llama API免費預覽版的使用權限。未來，這一API或將採取收費模式，具體價格表尚未發佈。Meta AI App及Web版本均已上線，免費可用。Meta AI Web端：https://www.meta.ai/Llama API文件：https://llama.developer.meta.com/docs/overview01.Llama模型下載量已超12億Meta AI App主打語音互動Meta首席產品官Chris Cox在LlamaCon大會上分享了Meta開源AI的最新進展。Cox稱，2年前，Meta內部對開放原始碼的商業化前景和優先順序問題都持有懷疑態度，但如今開源AI已成為行業大勢所趨。2個半月前，Meta宣佈Llama及其衍生模型已經實現了10億的下載量，今天，這一數字已迅速增長至12億。在開源平台Hugging Face上，Llama的大部分下載量均來自衍生模型，有數千名開發者參與貢獻，數萬個衍生模型被下載，每月被使用數十萬次。目前，Llama模型已被運用至Meta旗下的諸多App，包括WhatsApp、Instagram等等。在這些場景中，Llama模型經過了定製處理，以滿足特定用例需求，例如對話性、簡潔性（尤其是移動場景）和幽默感。為提供更豐富的AI體驗，Llama推出了獨立智能助手App——Meta AI。Meta AI App十分重視語音互動體驗，可提供低延遲、富有表現力的語音。Meta AI還可連接使用者的Facebook和Instagram帳戶，根據使用者互動歷史大致瞭解其興趣，並記憶使用者的相關資訊。這一App內建全雙工語音實驗模式。相關模型使用人與人之間的自然對話資料進行訓練，能提供更為自然的音訊輸出。全雙工意味著通道是雙向開放的，使用者可以聽到自然的打斷、笑聲等，就像真正的電話對話一樣。全雙工語音實驗模式還處於早期階段，沒有工具使用、網路搜尋等能力，無法瞭解新近發生的時事。Meta AI App中融入了社交元素，使用者可在發現頁面分享提示詞、生成結果等。這一App能與Meta Ray Ban智能眼鏡配合使用。使用者將能在眼鏡上開始對話，然後從應用程式或網路的“歷史記錄”選項卡中訪問它，以從上次中斷的地方繼續。02.一行程式碼就能呼叫可線上完成模型微調會上，Meta負責Llama業務的副總裁Manohar Paluri與Llama研究團隊成員Angela Fan共同發佈了由Meta託管的Llama API服務。Llama API提供簡單的一鍵式API金鑰建立，一行程式碼就能呼叫。支援輕量級的Python和Typescript SDK開發者以及OpenAI SDK。在API服務網頁中，Meta提供了互動式遊樂場。開發者可在其中嘗試不同的模型，更改模型設定，比如系統指令或溫度，以測試不同的組態。▲Llama API介面此外，開發者還可以使用多項預覽功能，包括基於JSON的結構化響應、工具呼叫等。Paluri認為，定製化才是開源模型真正應該領先的地方。Llama API提供了便捷的微調服務，目前支援對Llama 3.3 8B進行自訂。開發者可在微調標籤頁上傳用於微調的資料，或是使用Meta提供的合成資料工具包生成後訓練資料。▲Llama API模型微調介面資料上傳完成後，開發者可將資料的一部分切分出來，用於評估定製模型的表現。在Llama API平台上，可隨時查看訓練進展情況，微調完成後的模型可供下載，開發者可在任何場景中運行這一模型。大會上，Meta宣佈了與Cerebras和Groq的合作。這兩家企業可提供Llama 4 API服務所需的算力支援，其算力能實現更快的推理速度。03.結語：Llama探索商業化新道路自2023年Llama 1發佈以來，Llama系列模型已歷經四個主要版本，開源了數十款不同參數規模、不同架構的模型。不過，動輒數千億乃至兆參數量的模型，意味著巨大的投入——外媒爆料稱，過去一年內，Meta已經主動與微軟、亞馬遜等公司接洽，希望建立合作關係，共同分擔開發成本。本次，Llama API與Meta AI App的發佈，標誌著Meta開始積極探索Llama系列開源模型商業化的新道路。雖然目前的相關服務均處於免費狀態，但未來，Meta有望以開源模型為入口，引導企業和使用者使用關聯的雲服務，或是利用App實現商業化變現。在講完技術普惠和創新的故事之後，商業化或許是所有開源模型廠商們都需要共同面對的問題。 (智東西)